AWSの新認定試験 AWS Certified AI Practitioner (AIF) 勉強会を実施したのでその内容をまとめました【その３：SageMaker＋その他】

nokomoro3
2024.10.08
こんちには。
データ事業本部 インテグレーション部 機械学習チームの中村( @nokomoro3 )です。
先日社内向けに新しい認定試験、AWS Certified AI Practitioner(AIF)の勉強会を開催しましたので、その内容に関する記事の第3回（全３回）です。
AIF勉強会を実施したのでその内容をまとめました【その１：AI/ML一般知識】
AIF勉強会を実施したのでその内容をまとめました【その２：生成AI＋Bedrock】
AIF勉強会を実施したのでその内容をまとめました【その３：SageMaker＋その他】 ※本記事※
勉強会に使用したスライドは以下です。（実際にはAI/ML一般知識の部分は社外公開用に加筆しました）
第3回目となる本記事では、「SageMakerとその他のマネージドサービスについて」について説明します。
 はじめに
上記の内容に沿ってSageMakerについては説明していきます。
 SageMakerの概要
SageMakerは第2回目で触れた生成AI以外の機械学習モデル全般に使えるサービスとなっています。どの機械学習モデルも多くはなにかしらの入力から何かを予測する、という機能を持っており、それを構築するためのサービスとして大きく以下の３つから選択できます。
SageMaker Canvas
SageMaker JumpStart
SageMakerのその他機能の組み合わせ
いずれも、モデルを作って推論用のエンドポイントを作る、という点が最終的に担保する部分になります。また、本番稼働後のモニタリングなどの機能もSageMakerのその他機能として準備されています。
SageMaker Studioは今まで述べたこれらを実行するための環境であり、その多くはローカルマシンからのCLI等でも同等のことが可能ですが、SageMaker Studioを使うことですぐにSageMakerの機能をフル活用できます。
Canvas、JumpStart、機能の組み合わせという３パターンについてご説明しましたが、その抽象度合いで階層が分かれているイメージとなります。
Canvasは非技術者向けのノーコードツールであり、JumpStartはエンジニア向けのテンプレート、これらが対応していないカスタマイズはSageMakerの各機能を組み合わせるといった感じです。
詳細は以下の記事もご参照ください。
SageMaker Canvasについて
https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/canvas.html
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-SageMaker-Canvas_0930_v1.pdf

SageMaker JumpStartについて
https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/studio-jumpstart.html

 推論タイプ
先ほど推論エンドポイントの話を述べましたが、SageMakerは推論のタイプをいくつかに分けて考えることができます。
それぞれに処理時間やデータサイズの制約、課金条件が異なりますので、参考にされてください。
詳細はいくつかのBlackBeltのコンテンツにも記載されています。
https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-options
https://pages.awscloud.com/rs/112-TZM-766/images/202208_AWS_Black_Belt_AWS_ML_Enablement_Dark_03.pdf
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Inference-Part-3_1014_v1.pdf
 SageMaker主要機能一覧
試験ガイドに記載されているSageMakerの機能を抜粋しています。早見表としてご活用ください。
それぞれの機能の詳細についてはリンクを載せておきます。
https://docs.aws.amazon.com/sagemaker/latest/dg/role-manager.html
https://docs.aws.amazon.com/sagemaker/latest/dg/model-cards.html
https://docs.aws.amazon.com/sagemaker/latest/dg/model-dashboard.html
https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models.html
https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-data-prep.html
https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html
https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html
https://docs.aws.amazon.com/sagemaker/latest/dg/a2i-use-augmented-ai-a2i-human-review-loops.html
それぞれの機能の全体に対する位置づけは次のスライドで説明します。
 SageMaker主要機能の位置づけ
第1回で述べたように、機械学習のプロセスはおおむね上記のようなプロセスを経ます。
Feature Storeはそのプロセスの過程で特徴量を作成するため、そちらを保存する機能です。
モデルの学習には正解データが必要となるケースが多く、その正解ラベル付けにGround Truthを使用できます。
モデル学習後は責任のあるAIの透明性の観点からモデルの情報を説明するためのModel Cardという機能が使用できます。
最終的に稼働するようになった推論エンドポイントの監視のためにModel Monitorを使用します。
推論エンドポイントの予測結果の信頼性が高くない場合、人間によるレビューを挟むことができ、これをAugmented AIという機能が担います。

こちらはGround Truthと勘違いしやすいためお気を付けください。
CanvasとJumpStartについては割愛しますが、Data WranglerもCanvasに同梱された前処理のノーコードツールという形で機能を担っています。
あとはStudioが実行環境を提供し、その実行環境の権限管理に使われるのがRole Managerという機能です。
 Model Monitorについて補足
Model Monitorは大きく３つの観点でモデルを監視します。
入力側
入力データの特性や分布が学習時と変化していないか監視します
欠損値や異常な値を監視することも含まれています

出力側
予測の品質が変わっていないことを監視します
予測品質を計算するためには、正解ラベル付けが必要な場合もあります

モデル内
モデル内の特徴量の使い方などの判断基準が変わってないかを監視します
また第1回でバイアスについて述べましたが、特定のバイアスに依存して判断をしていないか監視が可能です。

最後のモデル内の機能は、裏側ではSageMaker Clarifyという別の機能が担っており、これが継続的に実行されることで監視されます。
詳細は以下のBlackBeltもご参照ください。
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf
 その他のAI/MLマネージドサービス
その他AI/MLマネージドサービスについてです。試験ガイドに記載されたものを一覧にしています。
そのほとんどは英単語から連想できるものですが、一部はそうでもないため一定は覚えて置く必要があります。
またマネージドサービスだからといって、まったくカスタマイズ機能を提供していないわけではない点についてもご留意ください。
 AI/MLではないサービス
最後に試験ガイドに記載されているAI/MLではないサービスについても概要を記載しておきました。
 まとめいかがでしたでしょうか。第3回目はSageMakerとその他サービスについて説明しました。
AIFの試験を受けられる方の参考になれば幸いです。